当前位置: 开发笔记 > 编程语言 > 正文

数据项|校徽_Python实战高校数据采集，爬虫训练场项目数据储备

作者：手机用户2502927277 | 来源：互联网 | 2023-09-12 04:37

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python实战高校数据采集，爬虫训练场项目数据储备相关的知识，希望对你有一定的参考价值。

在制作爬虫训练场项目时&＃xff0c;需要准备大量的数据&＃xff0c;供大家学习使用&＃xff0c;本系列博客用于数据储备。

文章目录

- 示例代码如下所示
- 数据入库

本次要采集的是高考大数据&＃xff0c;即 2022 年学校排名&＃xff0c;数据来源为百度&＃xff0c;地址如下。

https://motion.baidu.com/activity/gaokao2022/trend

通过开发者工具获取请求接口与请求参数&＃xff0c;得到内容如下所示。

请求地址&＃xff1a;https://motion.baidu.com/gaokao/trendasync?pageSize&＃61;30&pageIndex&＃61;2
请求方法&＃xff1a;POST
请求头重点参数&＃xff1a;
- origin&＃xff1a;域名
- referer&＃xff1a;上一页地址
- user-agent&＃xff1a;用户代理
请求参数&＃xff1a;
- 查询参数&＃xff1a;pageSize & pageIndex
- 请求载荷&＃xff1a;"source":"全国","tabValue":"campus","filter":,"isScrolling":1

多次测试除 COOKIE 外&＃xff0c;无特殊加密参数&＃xff0c;并且我们对数据的采集效率无要求&＃xff0c;所以可以直接使用 requests 模块对请求进行模拟。

示例代码如下所示

一款普通的 requests 模块爬虫。

import json import requests def get_gaokao_data(): headers &＃61; "origin": "https://motion.baidu.com", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/108.0.0.0 Safari/537.36" data &＃61; "source": "全国", "tabValue": "campus", "filter": , "isScrolling": 1 res &＃61; requests.post("https://motion.baidu.com/gaokao/trendasync?pageSize&＃61;30&pageIndex&＃61;0", headers&＃61;headers, data&＃61;json.dumps(data)) print(res.text) if __name__ &＃61;&＃61; &＃39;__main__&＃39;: get_gaokao_data()

运行代码&＃xff0c;可以得到 JSON 格式的响应数据&＃xff0c;并且检测到 pageIndex 参数从 0 开始计数&＃xff0c;当设置为无限大时&＃xff0c;无数据返回&＃xff0c;即得到下述格式数据&＃xff0c;表示数据已经获取完毕。也可以通过判断 finished 的值判断请求是否结束。

"status":0,"msg":"successful","data":"list":[],"finished":true,"trace":"logid":xxxx

既然已经获取了起始和结尾数据&＃xff0c;那我们就可以对爬虫的采集层次进行控制了&＃xff0c;通过一个【死循环】抓取数据&＃xff0c;当 data/list 为空时&＃xff0c;结束采集。

数据入库

上文的示例代码&＃xff0c;已经成功采集到 JSON 数据&＃xff0c;接下来将其存储到 mysql 数据库中&＃xff0c;建表前对响应数据进行格式化操作&＃xff0c;核对字段。这里重要的是 data/list 中的数据项。

批次/batchTimes&＃xff1a;本科类别/category&＃xff1a;综合类城市/city&＃xff1a;城市特色/feature&＃xff1a;["上海", "本科", "综合类", "985", "211", "双一流", "强基计划", "自主招生"] 热度/hotValue&＃xff1a; 学校名/name&＃xff1a;同济大学校徽/pic&＃xff1a;&＃96;ttps://static-data.eol.cn/upload/logo/73.jpg&＃96; 省份/province&＃xff1a;"上海"

基于该数据&＃xff0c;建立数据表结构如下所示。

接下来编写数据解析函数和数据入库函数&＃xff0c;代码如下所示。

def format_data(data): """ 数据解析函数 :return: """ finished &＃61; data["data"]["finished"] if finished: # 数据采集完毕 return -1 else: ret_list &＃61; data["data"]["list"] school_list &＃61; [] for item in ret_list: province &＃61; item["province"] city &＃61; item["city"] name &＃61; item["name"] batchTimes &＃61; item["batchTimes"] pic &＃61; item["pic"] feature &＃61; ",".join(item["feature"]) hotValue &＃61; item["hotValue"] category &＃61; item["category"] school_list.append((name, province, city, feature, hotValue, pic, category, batchTimes)) insert_mysql(school_list)

上述代码无特殊部分&＃xff0c;仅数据采集结束时&＃xff0c;返回了状态值 -1&＃xff0c;该值用于后续在主函数进行判断使用。

数据入库代码&＃xff0c;使用 cursor.executemany()&＃xff0c;函数编码如下所示。

def insert_mysql(schools): """ 插入MySQL数据 :return: """ conn &＃61; pymysql.connect( host&＃61;&＃39;127.0.0.1&＃39;, port&＃61;3306, user&＃61;&＃39;root&＃39;, password&＃61;&＃39;root&＃39;, # 你的密码 database&＃61;&＃39;playground&＃39;, charset&＃61;&＃39;utf8&＃39; ) cursor &＃61; conn.cursor() sql &＃61; "insert into school_list(name,province,city,feature,hotValue,pic,category,batchTimes)values(%s,%s,%s,%s,%s,%s,%s,%s)" affect_rows &＃61; cursor.executemany(sql, schools) conn.commit() cursor.close() conn.close()

运行代码&＃xff0c;可以将首页数据插入到表格中&＃xff0c;共采集到 30 条数据&＃xff0c;在 MySQL 表中查阅如下。

最后一步&＃xff0c;将刚刚的代码扩展到全量数据&＃xff0c;即【死循环】实现数据采集。

if __name__ &＃61;&＃61; &＃39;__main__&＃39;: flag &＃61; True index &＃61; 1 while flag: ret &＃61; get_gaokao_data(index) index &＃43;&＃61; 1 if ret &＃61;&＃61; -1: flag &＃61; False

运行几秒钟之后&＃xff0c;可以得到完整数据&＃xff0c;最后的结果是 2760 所学校。

这些数据&＃xff0c;最后将发布到 pachong.vip&＃xff0c;大家可以交流学习使用。

&＃x1f4e2;&＃x1f4e2;&＃x1f4e2;&＃x1f4e2;&＃x1f4e2;&＃x1f4e2;
&＃x1f497; 你正在阅读 【梦想橡皮擦】 的博客
&＃x1f44d; 阅读完毕&＃xff0c;可以点点小手赞一下
&＃x1f33b; 发现错误&＃xff0c;直接评论区中指正吧
&＃x1f4c6; 橡皮擦的第 804 篇原创博客

从订购之日起&＃xff0c;案例 5 年内保证更新

⭐️ Python 爬虫 120&＃xff0c;点击订购 ⭐️
⭐️ 爬虫 100 例教程&＃xff0c;点击订购 ⭐️

推荐阅读

import
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
replace
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
import
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
import
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
import
Python 异步编程：深入理解 asyncio 库（上）

本文介绍了 Python 3.4 版本引入的标准库 asyncio，该库为异步 IO 提供了强大的支持。我们将探讨为什么需要 asyncio，以及它如何简化并发编程的复杂性，并详细介绍其核心概念和使用方法。 ... [详细]

蜡笔小新 2024-12-28 11:52:00
import
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
import
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
import
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
import
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
import
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
bash
CentOS7源码编译安装MySQL5.6

2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ... [详细]

蜡笔小新 2024-12-27 17:49:56
request
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
request
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
request
深入理解设计模式与七大原则

本文详细探讨了Java中的24种设计模式及其应用，并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类，帮助开发者更好地理解和应用这些模式，提升代码质量和可维护性。 ... [详细]

蜡笔小新 2024-12-27 19:10:10
request
Spring Boot快速入门与应用

本文详细介绍了如何使用Spring Boot进行高效开发，涵盖了配置、实例化容器以及核心注解的使用方法。 ... [详细]

蜡笔小新 2024-12-27 15:28:29

手机用户2502927277

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章